FM-DBSCAN: Ein effizienter, dichte-basierter Clustering-Algorithmus
نویسنده
چکیده
DBSCAN ist ein dichte-basierter Clustering-Algorithmus, der Cluster beliebiger Form auffindet und diese von Rauschen trennt. Aufgrund des quadratischen Aufwands ist DBSCAN für große Datenmengen jedoch oft ungeeignet. In dieser Arbeit wird deshalb ein effizienterer Algorithmus namens FM-DBSCAN vorgestellt, der für eine beliebige Distanzfunktion (Metrik) dasselbe Ergebnis wie DBSCAN liefert. Hierfür partitioniert FM-DBSCAN die Datenkollektion in Leader-Umgebungen, auf denen anschließend das Clustering durchgeführt wird. Erste Experimente mittels synthetischen Datenkollektionen zeigen, dass FM-DBSCAN um einen Faktor > 990 schneller als DBSCAN ist und auch wesentlich besser mit der Kollektionsgröße skaliert. Kategorien und Themenbeschreibungen I.5.3 [PATTERN RECOGNITION]: Clustering—Algorithms
منابع مشابه
EFM-DBSCAN: Ein baumbasierter Clusteringalgorithmus unter Ausnutzung erweiterter Leader-Umgebungen
DBSCAN ist ein dichte-basierter Clusteringalgorithmus, der beliebig geformte Cluster erkennt und sie von Rauschen trennt. Aufgrund der Laufzeit von O(n2) ist seine Anwendung jedoch auf kleine Datenkollektionen beschränkt. Um diesen Aufwand zu reduzieren, wurde der auf dem Konzept der Leader-Umgebung basierende Algorithmus FM-DBSCAN vorgestellt, der für beliebige Metriken dasselbe Clustering wie...
متن کاملPseudonyme Biometrik: Ein signatur-basierter Ansatz
Dieser Artikel stellt einen Ansatz zur Pseudonymisierung biometrischer Daten vor. Im Unterschied zu bisher bestehenden Ansätzen, setzt die Pseudonymisierung bereits bei der Berechnung der biometrischen Signatur an. Es werden Anforderungen und Vorausetzungen für ein derartiges Verfahren erarbeitet und anhand des Algorithmus von John Daugman ein Beispiel für die Anwendung des Ansatzes gegeben.
متن کاملComplete Hierarchical Cut-Clustering: An Analysis of Guarantee and Quality
There are many algorithms for dividing a graph into parts, so-called clusters. An essential question is how dense these clusters are. This can be measured by the intra-cluster expansion. The cut-clustering algorithm as presented by Flake et al. [FTT04] provides a theoretical guarantee on the intra-cluster expansion, which for example greedy clustering approaches can not give, as calculating the...
متن کاملبررسی مشکلات الگوریتم خوشه بندی DBSCAN و مروری بر بهبودهای ارائهشده برای آن
Clustering is an important knowledge discovery technique in the database. Density-based clustering algorithms are one of the main methods for clustering in data mining. These algorithms have some special features including being independent from the shape of the clusters, highly understandable and ease of use. DBSCAN is a base algorithm for density-based clustering algorithms. DBSCAN is able to...
متن کاملStatistical Inference and Probabilistic Modelling for Constraint-Based NLP
In this paper we present a probabilistic model for constraint-based grammars and a method for estimating the parameters of such models from incomplete, i.e., unparsed data. Whereas methods exist to estimate the parameters of probabilistic context-free grammars from incomplete data ([2]), so far for probabilistic grammars involving context-dependencies only parameter estimation techniques from c...
متن کامل